杂交和集合学习技术是改善预测方法的预测能力的流行模型融合技术。通过有限的研究,将这两种有前途的方法结合在一起,本文着重于不同合奏的基础模型池中指数平滑的旋转神经网络(ES-RNN)的实用性。我们将某些最先进的结合技术和算术模型平均作为基准进行比较。我们对M4预测数据集进行了100,000个时间序列,结果表明,基于特征的预测模型平均(FFORFORA)平均是与ES-RNN的晚期数据融合的最佳技术。但是,考虑到M4的每日数据子集,堆叠是处理所有基本模型性能相似的情况下唯一成功的合奏。我们的实验结果表明,与N-Beats作为基准相比,我们达到了艺术的预测结果。我们得出的结论是,模型平均比模型选择和堆叠策略更强大。此外,结果表明,提高梯度对于实施合奏学习策略是优越的。
translated by 谷歌翻译
我们调查预测中的合奏技术,并检查其使用与Covid-19大流行早期类似的非季度时间系列的潜力。开发改进的预测方法是必不可少的,因为它们在关键阶段为组织和决策者提供数据驱动的决策。我们建议使用后期数据融合,使用两个预测模型的堆叠集合和两个元特征,并在初步预测阶段证明其预测力。最终的集合包括先知和长期短期内存(LSTM)神经网络作为基础模型。基础模型由多层的Perceptron(MLP)组合,考虑到元素,表示与每个基础模型的预测精度最高的相关性。我们进一步表明,包含Meta-Features通常会在七和十四天的两个预测视野中提高集合的预测准确性。该研究强化了以前的工作,并展示了与深层学习模型相结合的传统统计模型的价值,以生产更多来自不同领域和季节性的时间序列的预测模型。
translated by 谷歌翻译
Using massive datasets to train large-scale models has emerged as a dominant approach for broad generalization in natural language and vision applications. In reinforcement learning, however, a key challenge is that available data of sequential decision making is often not annotated with actions - for example, videos of game-play are much more available than sequences of frames paired with their logged game controls. We propose to circumvent this challenge by combining large but sparsely-annotated datasets from a \emph{target} environment of interest with fully-annotated datasets from various other \emph{source} environments. Our method, Action Limited PreTraining (ALPT), leverages the generalization capabilities of inverse dynamics modelling (IDM) to label missing action data in the target environment. We show that utilizing even one additional environment dataset of labelled data during IDM pretraining gives rise to substantial improvements in generating action labels for unannotated sequences. We evaluate our method on benchmark game-playing environments and show that we can significantly improve game performance and generalization capability compared to other approaches, using annotated datasets equivalent to only $12$ minutes of gameplay. Highlighting the power of IDM, we show that these benefits remain even when target and source environments share no common actions.
translated by 谷歌翻译
Humans are excellent at understanding language and vision to accomplish a wide range of tasks. In contrast, creating general instruction-following embodied agents remains a difficult challenge. Prior work that uses pure language-only models lack visual grounding, making it difficult to connect language instructions with visual observations. On the other hand, methods that use pre-trained vision-language models typically come with divided language and visual representations, requiring designing specialized network architecture to fuse them together. We propose a simple yet effective model for robots to solve instruction-following tasks in vision-based environments. Our \ours method consists of a multimodal transformer that encodes visual observations and language instructions, and a policy transformer that predicts actions based on encoded representations. The multimodal transformer is pre-trained on millions of image-text pairs and natural language text, thereby producing generic cross-modal representations of observations and instructions. The policy transformer keeps track of the full history of observations and actions, and predicts actions autoregressively. We show that this unified transformer model outperforms all state-of-the-art pre-trained or trained-from-scratch methods in both single-task and multi-task settings. Our model also shows better model scalability and generalization ability than prior work.
translated by 谷歌翻译
在时间差异增强学习算法中,价值估计的差异会导致最大目标值的不稳定性和高估。已经提出了许多算法来减少高估,包括最近的几种集合方法,但是,没有通过解决估计方差作为高估的根本原因来表现出样品效率学习的成功。在本文中,我们提出了一种简单的集合方法,将目标值估计为集合均值。尽管它很简单,但卑鄙的(还是在Atari学习环境基准测试的实验中显示出明显的样本效率)。重要的是,我们发现大小5的合奏充分降低了估计方差以消除滞后目标网络,从而消除了它作为偏见的来源并进一步获得样本效率。我们以直观和经验的方式为曲线的设计选择证明了合理性,包括独立经验抽样的必要性。在一组26个基准ATARI环境中,曲线均优于所有经过测试的基线,包括最佳的基线,日出,在16/26环境中的100K交互步骤,平均为68​​%。在21/26的环境中,曲线还优于500k步骤的Rainbow DQN,平均为49%,并使用200K($ \ pm $ 100k)的交互步骤实现平均人级绩效。我们的实施可从https://github.com/indylab/meanq获得。
translated by 谷歌翻译
视频预测是一个重要但充满挑战的问题。负担着生成未来框架和学习环境动态的任务。最近,通过将视频预测分为两个子问题:预训练图像生成器模型,随后学习图像生成器的潜在空间中的自动回归预测模型,可以将视频预测分为两个子问题,从而成为强大的视频预测工具。 。但是,成功产生高保真性和高分辨率视频尚待观察。在这项工作中,我们研究了如何培训自回归潜在的潜在视频预测模型,能够预测高保真的未来帧,并对现有模型进行最小的修改,并产生高分辨率(256x256)视频。具体而言,我们通过使用因果变压器模型采用高保真图像发生器(VQ-GAN)来扩展先前的模型,并引入TOP-K采样和数据增强的其他技术,以进一步提高视频预测质量。尽管简单起见,但提出的方法仍可以在标准视频预测基准的最新方法中实现竞争性能,而参数较少,并在复杂和大规模数据集上实现了高分辨率的视频预测。视频可从https://sites.google.com/view/harp-videos/home获得。
translated by 谷歌翻译
编码有序顺序约束的多目标优化模型为建模各种具有挑战性的问题提供了解决方案,包括编码偏好,建模课程和执行安全措施。最近开发的拓扑马尔可夫决策过程理论(TMDP)捕获了离散状态和行动的情况。在这项工作中,我们通过制定,证明和实施TMDP的策略梯度定理,将TMDP扩展到连续空间和未知过渡动力学。该理论结果可以创建使用功能近似器的TMDP学习算法,并可以推广现有的深入强化学习(DRL)方法。具体而言,我们通过简单的近端策略优化(PPO)算法的简单扩展为TMDPS中的策略梯度提供了一种新算法。我们在现实世界多目标导航问题上证明了这一点,并在模拟和真实机器人中对目标进行任意排序。
translated by 谷歌翻译
摄像机传感器越来越多地与机器学习相结合,以执行各种任务,例如智能监视。由于其计算复杂性,这些机器学习算法中的大多数都被卸载到云中进行处理。但是,用户越来越关注第三方云提供商诸如功能蠕变和恶意使用之类的隐私问题。为了减轻这一点,我们提出了一个基于边缘的过滤阶段,该阶段在将传感器数据传输到云之前,该阶段去除对隐私敏感的属性。我们使用最先进的图像操纵技术,以利用删除表示形式来实现隐私过滤。我们定义选择加入和退出过滤器操作,并评估其从面部图像过滤私人属性的有效性。此外,我们研究了自然发生的相关性和剩余信息对过滤的影响。我们发现结果有希望,并相信这会进一步研究如何将图像操纵用于隐私保护。
translated by 谷歌翻译
本文报告了基准数据驱动的自动共鸣手势生成的第二个基因挑战。参与的团队使用相同的语音和运动数据集来构建手势生成系统。所有这些系统生成的运动都使用标准化的可视化管道将视频渲染到视频中,并在几个大型众包用户研究中进行了评估。与比较不同的研究论文不同,结果差异仅是由于方法之间的差异,从而实现了系统之间的直接比较。今年的数据集基于18个小时的全身运动捕获,包括手指,参与二元对话的不同人。十个团队参加了两层挑战:全身和上身手势。对于每个层,我们都评估了手势运动的人类风格及其对特定语音信号的适当性。我们的评估使人类的忠诚度与手势适当性解脱,这是该领域的主要挑战。评估结果是一场革命和启示。某些合成条件被评为比人类运动捕获更明显的人类样。据我们所知,这从未在高保真的头像上展示过。另一方面,发现所有合成运动比原始运动捕获记录要小得多。其他材料可通过项目网站https://youngwoo-yoon.github.io/geneachallenge2022/获得
translated by 谷歌翻译
自回归生成模型可以估计复杂的连续数据分布,例如在RL环境,图像强度和音频中的轨迹推出。大多数最先进的模型将连续数据离散为几个箱,并在箱上使用分类分布来近似连续数据分布。优点是,分类分布可以轻松地表达多种模式,并且可以简单地进行优化。但是,如果没有明显的垃圾箱,这种近似就无法表达密度的急剧变化,从而使其参数效率低下。我们提出了一种称为自适应分类离散化(ADACAT)的有效,表现力的多模式参数化。 AdaCat自适应地自适应地自动回归模型的每个维度,这使该模型能够分配密度为感兴趣的细胞间隔,从而提高了参数效率。 Adacat概括了分类和基于分位数的回归。 ADACAT是任何基于离散化的分布估计器的简单附加组件。在实验中,Adacat改善了现实世界表数据,图像,音频和轨迹的密度估计,并改善了基于模型的离线RL计划。
translated by 谷歌翻译